@理解业力警察：基于分布语义的名词复合词可接受性研究

#数字人文

Understanding Karma Police: The Perceived Plausibility of Noun Compounds as Predicted by DistributionalModels of Semantic Representation

核心思想

本研究使用分布式语义模型 (DSMs) 来预测人们对名词复合词（例如 校车 school bus vs. 马鞍橄榄 saddle olive）的合理性感知。研究发现，合理性并非由单一因素决定，而是由三个关键语义关系的复杂、非线性交互作用共同决定的：

中心词邻近度 (Head Proximity)
修饰词邻近度 (Modifier Proximity)
成分相似度 (Constituent Similarity)

研究结果指向一种认知加工模型：大脑在处理时会分层或交互地使用这些线索，当复合词的意义不明确时，会依赖更简单的线索（如词汇相似性或熟悉度）作为“备用方案”。

1. 引言与研究问题

名词复合词 (Noun Compounds): 由两个名词（一个 修饰词 modifier 和一个 中心词 head）组合而成，共同表达一个新概念。在英语中，中心词是右边的名词（例如，在 school bus 中，bus 是中心词）。
核心问题: 是什么因素让一个名词复合词听起来合理、有意义？为什么 school bus 一听就懂，而 saddle olive 却难以理解？
研究目标: 识别并建模那些能够预测已有 (attested) 和新创 (novel) 名词复合词感知合理性的语义因素。

2. 名词复合词：定义与分类

基本定义: 由两个相邻且不可分割的名词构成，共同指代一个新概念，且整体作为一个名词使用。
结构成分:
- 中心词 (Head): 通常决定复合词所属的基本语义类别。在英语中，遵循“右行中心词规则” (right-hand head rule)**，即右边的词是中心词。例如，swordfish (剑鱼) 是一种 fish (鱼)，而不是一种 sword (剑)。
- 修饰词 (Modifier): 用来修饰和限定中心词。
基本分类:
- 内向复合词 (Endocentric compounds): 复合词是其中心词所指范畴的一个具体实例（下位词）。例如 apple pie 是一种 pie。
- 外向复合词 (Exocentric compounds): 复合词的意义中心在结构之外，它不是其中心词的一个实例。例如 metalhead (金属乐迷) 不是一种 head (头)，而是一个人。
本研究的立场: 采用一个广义且不可知论的视角，不预先区分这些类别，而是探寻一个统一的合理性判断机制。

3. 名词复合词的合理性

术语: 在文献中，合理性 (Plausibility) 也常被称为可接受性 (Acceptability)、有意义性 (Meaningfulness) 等。本研究假设它们指向同一个潜在变量。
理论背景: 合理性分析模型 (Plausibility Analysis Model, PAM)
- 这是一个用于解释人类如何判断信息合理性的通用认知模型。它将合理性判断分为两个阶段：
  1. 理解阶段 (Comprehension Stage): 为输入信息（如此处的复合词）建立一个心理表征。
  2. 评估阶段 (Assessment Stage): 评估这个心理表征是否与个体的先验知识相符、是否连贯。
- 本研究的框架与此类似：首先通过组合模型构建复合词的语义表示（理解），然后通过各种度量指标来评估这个表示的特性（评估）。

4. 名词复合词的理解理论

4.1 语言学方法

生成主义方法 (Generative Approach): 认为复合词是由完整的句子经过语法变换和删减得到的。例如，stone wall (石墙) 可能源于 The wall is built out of stones (墙是由石头建成的)。复合词的意义由其来源句的深层结构决定。
词汇主义方法 (Lexicalist Approach): 认为复合词的意义是由其构成成分的词汇和语义属性在词库 (lexicon) 中直接组合而成的，而非来自句法变换。核心观点是修饰词填补了中心词的某个语义特征“槽”。
关系识别: 许多理论的共同点是，理解复合词的关键在于识别其成分之间的潜在语义关系（例如，windmill 风车是“用 wind 驱动的 mill” - 用途关系）。

4.2 心理学方法：概念组合 (Conceptual Combination)

核心: 探究两个独立的概念如何融合成一个新概念的认知过程。
早期模型:
- 选择性修饰模型 (Selective Modification Model): 主要用于形容词-名词组合。认为修饰词会选择性地修改中心词原型图式中的某个维度/属性。
- 概念特化模型 (Concept Specialization Model): 是前者的延伸，用于名词-名词组合。认为修饰词会填充中心词概念模板中的一个“槽位 (slot)”，从而使中心词的概念“特化”。例如，对于 moon colonist，修饰词 moon 填充了中心词 colonist 的 [LOCATION] 槽位。
后续模型: 如 CARIN 模型强调，概念组合的核心是基于先验经验，在多个可能的主题关系中进行竞争和选择。

5. 研究方法: 组合性分布式语义模型

本研究的核心方法是将词汇和复合词的意义表示为数学向量。

5. 1 分布式语义模型 (DSMs)

理论基础: 分布式假说 (Distributional Hypothesis) - "在相似上下文中出现的词，其意义也更相近"。
意义表示: 一个词的意义被捕捉为一个高维向量 (vector)。该向量基于这个词在大型文本语料库中的共现模式计算得出。
相似度计算: 两个词的语义相似度通过计算它们向量之间的余弦相似度 (cosine similarity) 来衡量。数值为 1 表示意义（在上下文中）相同，0 表示无关。

5. 2 DSMs 中的组合性 (Compositionality)

一个关键挑战是如何表示那些可能从未在语料库中出现过的复合词的意义。其意义必须由其构成部分组合而成。

基本公式: 一个复合词 (c) 的向量是其修饰词 (m) 和中心词 (h) 向量的函数：

c = f(m, h)
所用模型: 研究采用了词汇函数模型 (Lexical Function Model)。在该模型中，修饰词充当一个数学函数（一个矩阵），它通过变换中心词的向量来生成复合词的向量。这个函数是从语料库中已有的复合词实例中学习到的。
- 这个模型捕捉了“修饰词以特定方式改变中心词意义”的思想（例如，moon (月亮) 将 walk (行走) 变成 moonwalk (太空步)）。

5. 3 实验设计

数据集: 使用了一个包含 2,160 个名词复合词的数据集，这些词都有人类标注的合理性评分 (0=无意义, 4=完全有意义)。一半是已存在的词，另一半是通过颠倒词序构成的新创词，以确保包含了组合性加工过程。
- 选取 500 个最具体的名词（来自图像化研究）。
  1. 保留那些在 70 亿词 USENET 语料库中出现过至少一次的名词对组合。
  2. 去除明显不合逻辑的组合。
    - 结果：1,080 个已验证（attested）名词对。
  3. 将这 1,080 个名词对的词语顺序反转，得到另外 1,080 个组合。
    - 例：若 "bike pants" 已验证，则包含 "pants bike"。
    - 结果：1,080 个未验证（unattested/reversed）名词对。
- 通过在线问卷收集。请参与者对每个名词对作为单一概念的有意义程度进行评分，范围从 0（毫无意义）到 4（完全有意义）。最终评分: 对每个名词对的合理性评分进行平均，去除异常值后得到。
语料库: 合并了 BNC、ukWaC 和维基百科，总词量约 28 亿，模拟了人一生的语言经验。
向量空间构建:
- 词汇表: 包含语料库中最高频的 2 万个词以及数据集中所有成分词。
- 上下文窗口: 目标词前后各 2 个词。
- 权重计算: 使用正向逐点互信息 (PPMI) 对原始共现计数进行加权。
- 降维: 使用非负矩阵分解 (NMF) 将维度降至 300 维。
统计模型: 采用广义加性模型 (Generalized Additive Models, GAMs)，因为它能有效捕捉变量之间复杂的非线性和交互效应。

复合词的向量是怎么得到的💡

作者采用了一种组合性的方法，即通过其构成部分（修饰词和中心词）的向量来数学上推导出整个复合词的向量。

他们采用的具体模型叫做 “词汇函数模型” (Modifier Lexical Function Model)，由 Baroni 和 Zamparelli (2010) 提出。

核心思想：修饰词是一个“动作”或“函数”

这个模型有一个非常直观的类比：

中心词 (Head) 是一个物体或概念，由一个向量 h 表示。
修饰词 (Modifier) 不是一个简单的物体，而是一个动作或函数，它作用于中心词，将其“变换”成一个新的概念。这个“动作”由一个矩阵 (Matrix) M 表示。

因此，计算复合词向量 c 的过程，就是将代表“动作”的矩阵 M 应用于代表“物体”的向量 h 上。

数学公式为：

\vec{c} = M \cdot \vec{h}

其中：

$\vec{c}$ 是我们要求解的复合词向量。
$\vec{h}$ 是已知的中心词向量（可以直接从训练好的词向量空间中获取）。
$M$ 是代表修饰词的变换矩阵。

关键的挑战在于：如何得到这个代表修饰词的矩阵 M？

获取修饰词矩阵 `M` 的过程 (分为“学习”和“应用”两步)

这个过程需要一个“学习”或“训练”阶段，让模型从已有的例子中学会每个修饰词通常扮演什么样的“变换”角色。

第一步：学习/训练阶段 (Learning Phase)

我们以为修饰词 moon (月亮) 学习其变换矩阵 M_moon 为例：

收集训练数据: 首先，从巨大的语料库中找出所有以 moon 作为修饰词的已知复合词。比如，我们找到了 moon calendar (月历), moon landing (登月), moon walk (太空步) 等。
获取已知向量: 对于每一个找到的例子（比如 moon landing），我们已经拥有两个关键的向量：
- 中心词向量: 也就是 landing 的向量 ${\vec{h}}_{l a n d i n g}$ 。这个向量是我们事先已经训练好的。
- 整个复合词的“观测”向量: 我们把 moon landing 视为一个独立的单词，通过它在语料库中的整体上下文，计算出它的向量 ${\vec{c}}_{m o o n l a n d i n g}$ 。这个向量代表了 moon landing 这个词的“真实”含义。
求解矩阵 (核心步骤): 现在，我们有了一系列的“输入-输出”对：
- 输入 ${\vec{h}}_{c a l e n d a r}$ ，期望输出接近 ${\vec{c}}_{m o o n c a l e n d a r}$
- 输入 ${\vec{h}}_{l a n d i n g}$ ，期望输出接近 ${\vec{c}}_{m o o n l a n d i n g}$
- 输入 ${\vec{h}}_{w a l k}$ ，期望输出接近 ${\vec{c}}_{m o o n w a l k}$
我们的目标是找到一个独一无二的矩阵 M_moon，当它分别乘以这些不同的中心词向量时，得到的结果能与我们“观测”到的复合词向量尽可能地接近。这是一个典型的回归 (Regression) 问题。模型通过算法找到一个最优的 M_moon，使得所有预测向量和真实向量之间的总误差（通常是欧几里得距离）最小。

这个学习到的矩阵 M_moon，就编码了 moon 这个词在充当修饰词时，通常会对其中心词的意义进行何种“语义变换”的信息。

第二步：应用/预测阶段 (Application Phase)

一旦我们为常见的修饰词（如 moon, school, mountain 等）都学习到了它们各自的变换矩阵 M，我们就可以用它来生成全新的、从未见过的复合词的向量了。

例如，我们要计算新创词 mountain eagle (山鹰) 的向量：

我们不需要在语料库里找 mountain eagle。
我们从词向量空间中提取出中心词 eagle 的向量 ${\vec{h}}_{e a g l e}$ 。
我们使用在第一步中为修饰词 mountain 学到的变换矩阵 M_mountain。
执行矩阵乘法： ${\vec{c}}_{m o u n t a i n e a g l e} = M_{m o u n t a i n} \cdot {\vec{h}}_{e a g l e}$
这样，我们就组合出了一个全新的复合词向量 ${\vec{c}}_{m o u n t a i n e a g l e}$ 。这个新向量生活在与单个词向量相同的语义空间中，因此我们可以计算它与其他词（包括其构成成分）的相似度了。

总结

文章中复合词的向量是通过一个两步过程得到的：
9. 学习: 对每一个修饰词，通过其在语料库中已有的复合词实例，学习一个专属的“语义变换矩阵 M”。
10. 应用: 将这个学到的矩阵 M 乘以目标中心词的向量 h，从而数学上合成出最终的复合词向量 c。

这种方法的强大之处在于，它不仅能表示已有的复合词，更能为无限的新创复合词生成合理的语义表示，这与人类语言的创造性高度契合。

6. 关键的合理性度量指标 (预测变量)

研究人员从计算出的向量中推导出了几个假设可以预测合理性的度量指标。通过分析它们的交互作用，发现以下三个最为关键：

6. 1 中心词邻近度 (Head Proximity)

定义: 复合词向量 (c) 与中心词向量 (h) 之间的余弦相似度。

中心词邻近度 = cos(c, h)
心理学意义: 复合词在多大程度上符合其中心词所属的语义范畴？一个 house boat (船屋) 仍然是一种 boat (船)，因此它应具有很高的中心词邻近度。这与语言学中的内向复合词 (endocentricity) 概念相关。
普遍效应: 越高的中心词邻近度，导致越高的合理性。如果一个复合词是其中心词范畴的一个清晰实例，它就更容易被理解。

6. 2 修饰词邻近度 (Modifier Proximity)

定义: 复合词向量 (c) 与修饰词向量 (m) 之间的余弦相似度。

修饰词邻近度 = cos(p, m)
心理学意义: 修饰词对复合词整体意义的贡献有多清晰、多易于识别？在 house boat (船屋) 中，house (房子) 的概念在最终意义中清晰可见。
普遍效应: 呈非线性关系。当修饰词邻近度处于中高水平时，合理性最高。
- 过低: 修饰词的作用不明确 (saddle olive 马鞍橄榄)。
- 过高: 修饰词是多余、无信息的 (water lake 水湖, lad boy 小伙子男孩)。

6. 3 成分相似度 (Constituent Similarity)

定义: 修饰词向量 (m) 与中心词向量 (h) 之间的余弦相似度。

成分相似度 = cos(m, h)
心理学意义: 两个构成词本身在语义上有多相关？soup chicken (汤鸡) 相似度高（都是食物）；karma police (因果报应警察) 相似度低。
普遍效应: 主要是积极影响，但其作用高度依赖于其他因素（见下文的交互作用）。

6. 4邻域密度 (Neighbourhood Density)

邻域密度 (Neighbourhood Density)：
- 定义：指一个复合词向量与其在语义空间中k个最邻近的词向量的平均相似度
- 理论基础：一个合理的表达，其含义应该与其他已知的概念相似。如果一个复合词的向量周围有很多其他已知词的向量（即处于一个高密度区域），说明它的含义是明确且不孤立的，因而更合理。

6. 5熵 (Entropy)

熵 (Entropy)
- 定义：这是一个信息论概念，用来衡量一个向量在所有维度上数值分布的均匀程度
- 理论基础：一个合理的、有明确含义的概念，其向量应该在某些关键语义维度上有较高的值，而在其他不相关的维度上值较低（即分布不均匀，熵值低）。相反，如果一个向量在所有维度上的值都差不多（分布均匀，熵值高），则说明这个概念没有明确的特征，因此可能不合理。

7. 实验结果：非线性的交互作用

预测变量和分析过程🐞

1. 预测变量 (Predicting Variables)

该研究使用的预测变量主要分为两大类：

A. 合理性度量指标 (Plausibility Measures)
这些是研究的核心理论变量，直接从复合词及其成分的词向量计算得出：

中心词邻近度 (Head Proximity)
修饰词邻近度 (Modifier Proximity)
成分相似度 (Constituent Similarity)
邻域密度 (Neighbourhood Density)
熵 (Entropy)

B. 协变量 (Covariates)
这些是传统的语言学或心理语言学变量，作为控制变量或基线预测变量，以确保合理性度量指标的效果不是由这些基本因素驱动的。

长度 (Length)：修饰词和中心词的字母长度。
频率 (Frequency)：
- 修饰词的对数频率。
- 中心词的对数频率。
- 词对的对数频率 (包括正序和反序，例如 "tree apple" 和 "apple tree" 的频率都会被考虑)。
家族大小 (Family Size)：一个词作为修饰词或中心词出现在多少个不同复合词中的数量。（注意：在模型构建的初始阶段，该变量因与词频高度相关而被剔除了）。
点互信息 (Pointwise Mutual Information, PMI)：衡量修饰词和中心词之间的关联强度。

2. 统计模型的建构过程

研究人员采用了一种系统性的、分步骤的方法来构建其统计模型，该模型的核心是广义可加模型 (Generalized Additive Models, GAMs)。选择GAMs是因为它们能够灵活地捕捉变量之间复杂的非线性关系和交互作用。

以下是具体的构建步骤：

第一步：建立基线模型 (Baseline Model)

初始设定：首先，模型包含了所有的协变量（长度、频率、PMI等）作为固定的线性效应。
加入随机效应：为了控制不同单词本身带来的差异，模型中加入了“中心词”和“修饰词”的随机效应 (random effects)。这可以解释为什么某些词天生就更容易构成合理的复合词。
模型简化：通过显著性检验（Wald tests），研究人员剔除了那些对结果没有显著影响的协变量（如此前提到的“家族大小”）。最终，只保留了显著的协变量，形成了一个最精简但有效的基线模型。

第二步：逐步加入合理性度量指标

这是模型构建的核心。研究人员没有一次性把所有合理性指标都放进模型，而是采用了一种前向逐步选择 (step-wise procedure) 的方法：

逐一测试：在基线模型的基础上，每次只尝试加入一个新的合理性度量指标（如先加入“中心词邻近度”），或者加入一个已存在指标的交互作用项。
模型比较：使用似然比检验 (Likelihood-ratio tests) 来判断新加入指标的模型是否显著优于前一步的模型。
择优录取：如果在某一步有多个指标都能显著改善模型，研究人员会选择那个使赤池信息准则 (Akaike Information Criterion, AIC) 值最低的模型。AIC是一个衡量模型拟合优度和复杂度的标准，AIC越低通常代表模型越好。
测试交互作用：只有当两个指标的单独效应（主效应）已经被包含在模型中时，研究人员才会去测试这两个指标的交互作用 (interaction effects)。并且，他们还特别测试了这些指标与“词对频率”（即熟悉度）的交互作用。

第三步：形成最终模型与模型诊断

最终模型：通过上述逐步过程，最终确定的模型包含了几个协变量的线性效应，以及三个关键的非线性交互作用：
- 中心词邻近度 × 修饰词邻近度
- 修饰词邻近度 × 成分相似度
- 成分相似度 × 词对频率
模型诊断 (Model Criticism)：为了确保模型的稳健性，研究人员还进行了诊断：
- 他们移除了离群值 (outliers) 后重新拟合模型，发现结果依然稳健。
- 他们验证了模型中的非线性关系是必要的，因为如果用简单的线性关系替换，模型效果会显著变差。

统计模型显示，没有任何一个单一指标能独立完美预测合理性。起决定性作用的是三个核心指标之间的三个非线性交互作用：

交互作用 1: 中心词邻近度 & 修饰词邻近度

发现: 中心词邻近度的积极效应，在修饰词邻近度处于一个“最佳区间”（不太高也不太低）时最为强烈。
解读: 当一个复合词既是其中心词范畴的清晰成员，并且其修饰词的贡献清晰但不冗余时，它被认为是最合理的。

交互作用 2: 修饰词邻近度 & 成分相似度

发现: 只有当修饰词邻近度很低时，成分相似度才会提升合理性。当修饰词的贡献很清晰时（修饰词邻近度高），两个基础词汇是否相似就不那么重要了。
解读: 成分相似度扮演了备用资源 (backup resource) 的角色。
- 如果不清楚修饰词如何改变中心词（例如，什么是 dog bull 狗公牛？），那么两个成分相似（都是动物）这个事实有助于让这个复合词显得稍微合理一些，人们可以猜测它们之间可能的关系。
- 如果修饰词的作用很明显（例如，baby rabbit 兔宝宝），我们就不需要依赖 baby 和 rabbit 之间的相似性这个备用线索了。

交互作用 3: 成分相似度 & 熟悉度 (词频)

发现: 熟悉度（即复合词的使用频率）能提升合理性，但这种效应在成分相似度低时最为显著。
解读: 熟悉度是另一个备用资源。
- 当两个成分在语义上毫无关联时（rock star 摇滚明星），理解会很困难。此时，我们严重依赖已存储的知识（熟悉度）来判断这是一个有意义的、已词汇化的单元。
- 当两个成分相关时（chocolate cake 巧克力蛋糕），其意义是透明的、易于即时计算的，因此我们对它出现频率的依赖性就降低了。

8. 讨论 (Discussion)

8. 2 合理性判断的整合机制模型

本研究结果指向一个分层或多策略的认知机制:

第一层 (组合加工): 大脑首先尝试通过语义组合来构建复合词的意义。如果 中心词邻近度 高且 修饰词邻近度 适中，则判断为合理。
第二层 (连贯性检查): 如果第一层失败（如修饰词贡献模糊），则退而求其次，检查 成分相似度。高相似度可以弥补组合上的困难。
第三层 (词库查找): 如果第二层也失败（成分不相关），则最后依赖 熟悉度。高频出现的复合词，即使语义不透明，也会被判断为合理。

8. 3 显性判断 vs. 实时加工

本研究使用的是显性评分数据，因此提出的机制模型不一定代表严格的时间顺序。在实时语言加工中，这些因素很可能是并行 (parallel) 计算并相互作用的。

8. 4 组合性的角色

研究结果表明，即使是高度熟悉、已词汇化的复合词（如 snowball），其加工过程也似乎涉及其成分的组合，而不仅仅是作为一个整体从记忆中提取。这支持了组合性加工在复合词理解中普遍存在的观点。

Lexical Function 和Full Additive Model

词汇功能模型 (Lexical Function Model)

1. 基本思想
这个模型的核心思想是不对称的。它认为在名词复合词（修饰词 + 中心词）中，修饰词和中心词扮演着完全不同的角色：

中心词 (head) 是一个概念实体，由一个向量表示。
修饰词 (modifier) 不是一个实体，而是一个函数或操作，它作用于中心词的向量，对其进行转换，从而生成复合词的向量。

2. 数学公式
复合词向量 c 的计算方式如下：
c = M ⋅ h

c: 最终生成的复合词向量。
h: 中心词 (head) 的词向量。
M: 一个转换矩阵 (transformation matrix)，这个矩阵代表了修饰词。请注意，这里代表修饰词的不是它自己的词向量 m，而是一个矩阵 M。

3. 工作原理
修饰词矩阵 M 是如何得到的？它是通过学习得来的。

训练过程：模型会从大型语料库中找到所有以某个特定词（比如 "moon"）作为修饰词的已知复合词（如 "moon landing", "moon walk", "moon stone"）。
学习目标：模型的目标是学习一个最优的矩阵 M_moon，当这个矩阵 M_moon 分别与 "landing", "walk", "stone" 的向量相乘时，得到的结果能最接近语料库中 "moon landing", "moon walk", "moon stone" 的实际词向量。
应用：一旦学习到了代表 "moon" 这个修饰词的矩阵 M_moon，我们就可以用它来计算新的、甚至从未见过的复合词，比如计算 "moon house" 的向量，只需用 M_moon 乘以 "house" 的向量 h 即可。

4. 优缺点

优点：能够捕捉到修饰词非常具体、独特的功能。例如，"olive" 在 "olive oil" 和 "olive tree" 中的修饰作用是不同的，这个模型理论上可以学到这种特定于修饰词的转换模式。
缺点：
- 生产力有限：它只能为那些在训练语料中频繁作为修饰词出现的词计算矩阵 M。如果一个词从未或很少作修饰词，就无法为它学习一个可靠的矩阵。
- 心理学上的疑问：这个模型在计算中完全忽略了修饰词本身的概念向量 m，这似乎与人的直觉不符——我们在理解 "moon landing" 时，显然动用了 "moon" 本身的概念。

全加性模型 (Full Additive Model)

1. 基本思想
这个模型更加通用和对称。它认为修饰词和中心词都是概念实体（都由向量表示），它们共同对最终的复合词含义做出贡献。最终的复合词向量是两个经过转换后的成分向量的加和。

2. 数学公式
复合词向量 c 的计算方式如下：
c = A ⋅ m + B ⋅ h

c: 最终生成的复合词向量。
m: 修饰词 (modifier) 的词向量。
h: 中心词 (head) 的词向量。
A 和 B: 这是两个通用的权重矩阵。A 学习的是任何修饰词通常如何贡献意义，而 B 学习的是任何中心词通常如何贡献意义。

3. 工作原理
矩阵 A 和 B 也是通过学习得到的，但它们不是针对某个特定的词，而是全局性的。模型会观察大量的各种不同的复合词，学习出一个普适的 A 和 B，使得对于任意复合词 m+h，A⋅m + B⋅h 的计算结果都能最接近其在语料库中的真实向量。